ML-Cheat-Sheet

Basic Rules of Differentiation

Basic Rules

Constant Rule: $\frac{d}{d x} C = 0$
Power Rule: $\frac{d}{d x} x^{n} = n x^{n - 1}$
Linear Combination: $\frac{d}{d x} [a f (x) + b g (x)] = a f^{'} (x) + b g^{'} (x)$
Product Rule: $\frac{d}{d x} [f (x) g (x)] = f^{'} (x) g (x) + f (x) g^{'} (x)$
Quotient Rule: $\frac{d}{d x} [\frac{f (x)}{g (x)}] = \frac{f^{'} (x) g (x) - f (x) g^{'} (x)}{[g (x)]^{2}}$
Chain Rule: $\frac{d}{d x} f (g (x)) = f^{'} (g (x)) g^{'} (x)$
Exponential: $\frac{d}{d x} e^{x} = e^{x}$ | | $\frac{d}{d x} a^{x} = a^{x} \ln (a)$
Logarithmic $\frac{d}{d x} \ln (x) = \frac{1}{x}$ || $\frac{d}{d x} \log_{a} (x) = \frac{1}{x \ln (a)}$

Linear Regression

1. Hypothesis

$h_{θ} (x) = θ^{T} x = θ_{0} + θ_{1} x_{1} + \dots + θ_{n} x_{n}$

2. Cost Function

Mean Squared Error (MSE): $J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} {(h_{θ} (x^{(i)}) - y^{(i)})}^{2}$

3. Optimization

Gradient Descent: $θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$
Normal Equation: $θ = {(X^{T} X)}^{- 1} X^{T} y$

Logistic Regression

1. Hypothesis

$h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}$

Prediction Rule:
- Predict $y = 1$ if $h_{θ} (x) \geq 0.5$ , otherwise $y = 0$ .

2. Cost Function

Log Loss: $J (θ) = \frac{1}{m} \sum_{i = 1}^{m} [- y^{(i)} \log (h_{θ} (x^{(i)})) - (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))]$

3. Optimization

Gradient Descent: $θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

4. Sigmoid Properties

Output: $g (z) \in [0, 1]$
Derivative: $g^{'} (z) = g (z) (1 - g (z))$

Ridge Regression

Loss Function

Adds $L 2$ regularization to prevent overfitting: $J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} {(h_{θ} (x^{(i)}) - y^{(i)})}^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}$

$λ$ : Regularization parameter. Higher values shrink $θ_{j}$ .

Optimization

Closed-form Solution: $θ = {(X^{T} X + λ I)}^{- 1} X^{T} y$
Gradient Descent: $θ_{j} := θ_{j} - α (\frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} + 2 λ θ_{j})$

Bayesian Classification

Dataset

$T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$
$x_{i} = (x^{1}, \dots, x^{n})$ , $y_{i} \in {c_{1}, \dots, c_{K}}$

Posterior Probability

The probability of class $c_{k}$ given input $x$ : $P (y = c_{k} ∣ x) \propto P (y = c_{k}) P (x ∣ y = c_{k})$

If features are conditionally independent: $P (y = c_{k} ∣ x) \propto P (y = c_{k}) \prod_{j} P (x^{j} ∣ y = c_{k})$

SVM

Hard SVMHyperplane: $H = {w | w^{T} x + b = 0}$ Constraint: $y_{i} (w^{T} x_{i} + b) \geq 1$ $\forall i$ Goal: $min \frac{1}{2} | | w | |^{2}$ s.t. $y_{i} (w^{t} x_{i} + b) \geq 1$ Lagrangian: $L (w, b, α) = \frac{1}{2} | | w | |^{2} - \sum_{i} α_{i} (y_{i} (w^{T} x_{i} + b) - 1), α_{i} \geq 0$ Partial derivative: $\frac{\partial L}{\partial w} = w - \sum_{i} α_{i} y_{i} x_{i} = 0$ $\frac{\partial L}{\partial b} = - \sum_{i} α_{i} y_{i} = 0$ Solution: $| | w | |^{2} = (\sum_{i} α_{i} y_{i} x_{i})^{T} (\sum_{i} α_{i} y_{i} x_{i}) = \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ Lagrangian becomes: $L = \sum_{i} α_{i} - \frac{1}{2} \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ s.t. $\sum_{i} α_{i} y_{i} = 0$ and $α_{i} \geq 0 \forall i$ Weight vector: $w^{*} = \sum_{i} α_{i} y_{i} x_{i}$ Bias: $b^{*} = y_{i} - \sum_{i} α_{i} y_{i} x_{i}^{T} x_{j}$

Soft SVMHyperplane: $H = {w | w^{T} x + b = 0}$ Constraint: $y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0, \forall i$ Goal: $min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i}, s . t . y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0$
Lagrangian: $L (w, b, α, ξ) = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{n} μ_{i} ξ_{i}, α_{i}, μ_{i} \geq 0$ Partial Derivative: $\frac{\partial L}{\partial w} = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0, \frac{\partial L}{\partial b} = - \sum_{i = 1}^{n} α_{i} y_{i} = 0, \frac{\partial L}{\partial ξ_{i}} = C - α_{i} - μ_{i} = 0$ Solution: $| | w | |^{2} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ Dual Problem: $L = max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ s.t. $\sum_{i = 1}^{n} α_{i} y_{i} = 0, 0 \leq α_{i} \leq C$
Weight vector: $w^{*} = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}$ Bias: $b^{*} = y_{k} - \sum_{i = 1}^{n} α_{i} y_{i} x_{i}^{T} x_{k} for any 0 < α_{k} < C$ The reason that ξ disappears: The slack variables $ξ_{i}$ disappear in the dual problem because they are implicitly handled through the Lagrange multipliers $α_{i}$ . By taking the derivative of the Lagrangian with respect to $ξ_{i}$ , we obtain: $\frac{\partial L}{\partial ξ_{i}} = C - α_{i} - μ_{i} = 0$ This relationship ensures that $α_{i}$ is bounded by $0 \leq α_{i} \leq C$ . Consequently, the slack variables $α_{i}$ do not explicitly appear in the dual formulation. Instead, the dual problem balances maximizing the margin and allowing for misclassification through the constraint on $α_{i}$ .

Kernel SVMHyperplane: $H = {w | w^{T} ϕ (x) + b = 0}$ Constraint: $y_{i} (w^{T} ϕ (x_{i}) + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0, \forall i$ Goal: $min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i}, s . t . y_{i} (w^{T} ϕ (x_{i}) + b) \geq 1 - ξ_{i}$ Lagrangian (Dual): $L (α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j})$ s.t. $\sum_{i = 1}^{n} α_{i} y_{i} = 0, 0 \leq α_{i} \leq C, \forall i$ Weight vector: $w = \sum_{i = 1}^{n} α_{i} y_{i} ϕ (x_{i})$ Decision Function: $f (x) = sign (\sum_{i = 1}^{n} α_{i} y_{i} K (x_{i}, x) + b)$ Bias: $b = y_{k} - \sum_{i = 1}^{n} α_{i} y_{i} K (x_{i}, x_{k}) \forall s u p v e c 0 < α_{k} < C$ Kernel Functions:
Linear: $K (x_{i}, x_{j}) = x_{i}^{T} x_{j}$
Polynomial: $K (x_{i}, x_{j}) = (x_{i}^{T} x_{j} + c)^{d}$
Gaussian (RBF): $K (x_{i}, x_{j}) = \exp (- \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}})$
Sigmoid: $K (x_{i}, x_{j}) = \tanh (κ x_{i}^{T} x_{j} + c)$

MLE and MAP

MLE

构建似然函数：联合分布 $L (θ) = \prod_{i = 1}^{n} P (X_{i} | θ)$ 。 取对数简化计算： $\ln L (θ) = \sum_{i = 1}^{n} \ln P (X_{i} | θ)$ 。 求导并设为 0： $\frac{d}{d θ} \ln L (θ) = 0$ ，解得 ${\hat{θ}}_{M L E}$ 。 验证极值：通过二阶导数等方式确保是最大值。

MAP

结合先验构建后验概率： $P (θ | X) \propto P (X | θ) P (θ)$ 。 取对数后验函数： $\ln P (θ | X) \propto \ln P (X | θ) + \ln P (θ)$ 。 求导并设为 0： $\frac{d}{d θ} \ln P (θ | X) = 0$ ，解得 ${\hat{θ}}_{M A P}$ 。 验证极值：确保找到最大值。

Algorithm

Tutorial

assignment

Assignment

As-1

As-2

Lab-1

Lab-2

Lab-3

Lab-4

GAMES101

Assignment-1

Assignment-2

Assignment-3

Assignment-4

Lab

Lecture

Peoject

CSCN

Ploidy

ML-Cheat-Sheet ​

Basic Rules of Differentiation ​

Linear Regression ​

1. Hypothesis ​

2. Cost Function ​

3. Optimization ​

Logistic Regression ​

1. Hypothesis ​

2. Cost Function ​

3. Optimization ​

4. Sigmoid Properties ​

Ridge Regression ​

Loss Function ​

Optimization ​

Bayesian Classification ​

Dataset ​

Posterior Probability ​

SVM ​

MLE and MAP ​

MLE ​

MAP ​

ML-Cheat-Sheet

Basic Rules of Differentiation

Linear Regression

1. Hypothesis

2. Cost Function

3. Optimization

Logistic Regression

1. Hypothesis

2. Cost Function

3. Optimization

4. Sigmoid Properties

Ridge Regression

Loss Function

Optimization

Bayesian Classification

Dataset

Posterior Probability

SVM

MLE and MAP

MLE

MAP